11.3 DINOv2 자기지도 학습과 시각적 특징 추출

11.3 DINOv2 자기지도 학습과 시각적 특징 추출

2025-12-22, G30DR

2025년 현재, 멀티모달 에이전트와 추론 모델이 인공지능 연구의 최전선에 서 있는 시점에서, 시각 정보를 처리하는 ’눈’의 역할은 그 어느 때보다 중요해졌다. 거대 언어 모델(LLM)이 텍스트라는 1차원 시퀀스에서 문맥과 의미를 추출하여 추론의 기초를 다졌다면, 비전 트랜스포머(ViT)는 2차원 픽셀 배열에서 개념적 구조를 파악하여 시각 지능의 토대를 마련했다. 이 과정에서 메타(Meta AI)가 2023년 공개하고 지속적으로 발전시킨 DINOv2(Discriminating Self-supervised Learning with Vision Transformers v2)는 지도 학습(Supervised Learning)의 한계를 넘어선 ’파운데이션 모델’로서의 비전 모델이 나아가야 할 방향을 제시한 기념비적인 연구이다. 본 절에서는 DINOv2가 어떻게 레이블 없는 방대한 데이터로부터 의미론적 특징을 스스로 학습하는지, 그 기저에 깔린 자기지도 학습(Self-Supervised Learning, SSL)의 원리와 데이터 큐레이션 전략, 그리고 창발적으로 나타나는 시각적 속성들을 심층적으로 분석한다.

1. 자기지도 학습의 패러다임 변화: 식별과 생성의 통합

DINOv2의 등장 이전, 컴퓨터 비전 분야의 자기지도 학습은 크게 두 가지 갈래로 나뉘어 발전해 왔다. 하나는 대조 학습(Contrastive Learning)에 기반한 식별적(Discriminative) 접근법이고, 다른 하나는 마스크드 오토인코더(MAE)로 대표되는 생성적(Generative) 또는 재구성(Reconstruction) 접근법이다.1

식별적 접근법, 특히 DINO(v1)와 같은 지식 증류(Knowledge Distillation) 기반 모델은 이미지 간의 유사성을 학습하여 전역적인(Global) 의미 특징을 포착하는 데 탁월했다. 이는 이미지 분류(Classification)와 같은 작업에서 강점을 보였으나, 픽셀 수준의 세밀한 위치 정보나 로컬 특징을 학습하는 데에는 한계가 있었다. 반면, MAE와 같은 재구성 기반 모델은 이미지의 마스킹된 부분을 복원하며 국소적인(Local) 패턴과 질감을 학습하는 데 강력한 성능을 보였지만, 학습된 특징이 의미론적으로 충분히 분리되지 않아 선형 분류(Linear Probing)와 같은 작업에서는 별도의 미세 조정(Fine-tuning) 없이는 낮은 성능을 기록했다.1

DINOv2는 이 두 가지 패러다임을 통합하고 확장하려는 시도에서 출발했다. 연구진은 “레이블 없는 데이터로부터 범용적인 시각적 특징(All-purpose Visual Features)을 학습할 수 있는가?“라는 질문을 던졌다. 여기서 ’범용적’이라 함은 분류, 세그멘테이션, 깊이 추정, 검색 등 다양한 하위 작업(Downstream Tasks)에서 파라미터 업데이트 없이도(Frozen features) 높은 성능을 발휘함을 의미한다.3 이를 달성하기 위해 DINOv2는 기존 DINO의 아키텍처를 계승하되, iBOT의 마스크드 이미지 모델링(MIM) 손실을 통합하여 이미지 수준과 패치 수준의 특징을 동시에 학습하도록 설계되었다.

2. 데이터 중심 AI의 실현: LVD-142M 데이터셋 구축 파이프라인

DINOv2의 성공 요인 중 절반 이상은 모델 아키텍처가 아닌 ’데이터’에 있다. 기존의 자기지도 학습 연구들이 ImageNet-1k나 YFCC100M과 같이 공개된, 그러나 정제되지 않았거나(Uncurated) 규모가 제한적인 데이터셋에 의존했던 것과 달리, DINOv2 연구진은 양과 질을 모두 만족하는 대규모 데이터셋을 직접 구축하는 데 주력했다. 이렇게 탄생한 것이 LVD-142M(Large Vision Dataset - 142 Million)이다.4

2.1 자동화된 데이터 큐레이션 파이프라인

LVD-142M 구축의 핵심 철학은 “큐레이션 된 소규모 데이터셋의 분포를 따르되, 웹 규모의 방대한 데이터로 확장한다“는 것이다. 이를 위해 연구진은 수작업 없이 대규모 데이터를 정제할 수 있는 자동화 파이프라인을 설계했다.

  1. 시드 데이터 선정 (Data Sources): 큐레이션의 기준점이 될 시드 데이터셋으로는 ImageNet-22k, ImageNet-1k의 학습 분할, Google Landmarks, 그리고 세밀한 분류를 위한 여러 데이터셋이 선정되었다.5 이들은 이미 품질과 다양성이 검증된 데이터들로, 모델이 학습해야 할 ’좋은 이미지’의 기준이 된다.
  2. 원시 데이터 수집 및 임베딩: 연구진은 웹 크롤링을 통해 수집된 약 12억 장(1.2B)의 방대한 원시 이미지 풀을 준비했다. 이 이미지들로부터 시각적 특징을 추출하기 위해, ImageNet-22k로 사전 학습된 ViT-H/16 모델을 사용하여 임베딩을 생성했다.6
  3. 중복 제거 (Deduplication): 웹 데이터는 필연적으로 수많은 중복과 거의 유사한 이미지(Near-duplicates)를 포함한다. 이는 학습의 비효율성을 초래할 뿐만 아니라, 특정 도메인에 과적합(Overfitting)되게 만드는 원인이 된다. DINOv2는 Faiss 라이브러리를 활용한 대규모 유사도 검색을 통해 사본 검출(Copy Detection)을 수행했다.6 특히 벤치마크 데이터셋의 테스트 이미지와 유사한 이미지가 학습 데이터에 유입되는 것을 방지하기 위해 엄격한 유사도 임계값(0.45 이상)을 적용하여 데이터 누출(Data Leakage)을 원천 차단했다.8 결과적으로 12억 장의 이미지는 중복 제거 후 약 7억 4,400만 장으로 줄어들었다.8
  4. 자기지도 이미지 검색 (Self-supervised Image Retrieval): 큐레이션 된 데이터셋을 확장하기 위해, 시드 이미지와 임베딩 거리가 가까운 이미지들을 원시 데이터 풀에서 검색하여 추가했다.4
  • 샘플 기반 검색 (Sample-based): 100만 장 이상의 대규모 시드 데이터셋(ImageNet-22k 등)에 대해서는 각 이미지마다 가장 가까운 k개의 이웃 이미지를 검색했다. 구글 랜드마크 데이터셋에는 k=4, LVD-142M의 핵심 구성을 위해서는 k=32를 사용하는 등 데이터셋의 특성에 따라 검색 규모를 조절했다.8
  • 클러스터 기반 검색 (Cluster-based): 100만 장 미만의 소규모 데이터셋에 대해서는 원시 데이터를 10만 개의 클러스터로 나눈 뒤, 시드 이미지와 연관성이 높은 클러스터에서 이미지를 샘플링하는 방식을 취했다.8

이러한 정교한 파이프라인을 통해 구축된 1억 4,200만 장의 이미지는 모델의 학습 효율을 극대화하고, 다양한 도메인에 걸쳐 강건한(Robust) 특징을 학습할 수 있는 기반이 되었다. 이는 단순히 데이터의 양을 늘리는 ’스케일링(Scaling)’을 넘어, 데이터의 분포와 품질을 제어하는 ’큐레이션(Curation)’이 파운데이션 모델 학습에 필수적임을 시사한다.

3. 아키텍처 심층 분석: DINO와 iBOT의 기술적 융합

DINOv2의 학습 알고리즘은 DINO의 학생-교사(Student-Teacher) 지식 증류 구조 위에 iBOT의 마스크드 이미지 모델링(MIM)을 결합한 형태이다. 이 결합은 단순한 합집합이 아니며, 대규모 학습에서의 안정성과 성능을 보장하기 위한 여러 기술적 결정들이 포함되어 있다.

3.1 학생-교사 네트워크와 지식 증류

모델은 동일한 아키텍처를 공유하는 학생 네트워크(g_{\theta_s})와 교사 네트워크(g_{\theta_t})로 구성된다. 학생 네트워크는 역전파(Backpropagation)를 통해 파라미터가 업데이트되지만, 교사 네트워크는 학생 네트워크 파라미터의 지수 이동 평균(Exponential Moving Average, EMA)으로 업데이트된다.5
\theta_t \leftarrow \lambda \theta_t + (1 - \lambda) \theta_s
여기서 \lambda는 모멘텀 계수로, 학습이 진행됨에 따라 1에 가깝게 설정되어 교사 네트워크가 학생 네트워크보다 더 안정적인 표현을 생성하도록 유도한다. 학습 과정에서 입력 이미지 x는 서로 다른 뷰(View)로 변형되어 네트워크에 입력된다. 교사 네트워크에는 원본 정보가 잘 보존된 2개의 전역 크롭(Global Crop)이 입력되고, 학생 네트워크에는 전역 크롭과 더불어 이미지의 작은 부분만을 포함하는 여러 개의 로컬 크롭(Local Crop)이 함께 입력된다.9 이를 통해 학생은 국소적인 정보만으로도 전역적인 문맥을 추론하는 능력을 기르게 된다.

3.2 이중 손실 함수 (Dual Objective): 이미지와 패치의 조화

DINOv2는 이미지 전체를 대표하는 토큰 수준의 손실과, 이미지 내부의 각 패치 토큰 수준의 손실을 동시에 최적화한다.

  1. 이미지 수준 DINO 손실: 학생과 교사의 토큰 출력 간의 크로스 엔트로피 손실을 최소화한다. 이때 교사 네트워크의 출력에는 센터링(Centering)과 샤프닝(Sharpening)이 적용되어, 특정 클래스로 출력이 쏠리는 붕괴(Collapse) 현상을 방지한다.
  2. 패치 수준 iBOT 손실: 학생 네트워크에 입력되는 전역 크롭 중 일부 패치를 무작위로 마스킹(Masking)한다. 반면 교사 네트워크에는 마스킹되지 않은 원본 이미지를 입력한다. 학생 네트워크는 마스킹된 위치의 패치 토큰이 교사 네트워크의 해당 위치 패치 토큰 출력과 일치하도록 학습한다.8

L_{iBOT} = - \sum_{i \in M} P_t(u_i)^T \log P_s(\hat{u}_i)

여기서 M은 마스킹된 패치의 인덱스 집합, P_tP_s는 각각 교사와 학생의 출력 확률 분포를 의미한다. 이 iBOT 손실은 모델이 이미지의 국소적인 구조와 텍스처를 이해하고, 가려진 부분을 문맥에 맞게 채워 넣는 생성적 능력을 부여한다.10

3.3 분리된 헤드(Untied Heads)의 중요성

DINOv2 연구에서 발견된 중요한 기술적 통찰 중 하나는 투영 헤드(Projection Head)의 분리이다. 기존 iBOT 연구(Zhou et al., 2022a)에서는 이미지 수준(DINO) 손실과 패치 수준(iBOT) 손실을 계산하기 위해 동일한 투영 헤드를 공유하는 것이 파라미터 효율성과 성능 면에서 유리하다고 보고했다.5 그러나 DINOv2 연구진은 모델과 데이터의 규모를 10억 파라미터(ViT-g) 및 1억 4천만 이미지 수준으로 확장했을 때, 헤드를 공유하는 것이 오히려 성능을 저하시킨다는 사실을 발견했다.

이에 따라 DINOv2는 DINO 손실을 위한 헤드와 iBOT 손실을 위한 헤드를 완전히 분리(Untied)하여 각각 독립적으로 학습되도록 설계했다.5 이는 두 가지 서로 다른 학습 목표(전역적 의미 식별 vs 국소적 패턴 복원)가 하나의 헤드 파라미터 내에서 충돌(Interference)하는 것을 방지하고, 각 작업에 최적화된 특징 공간을 형성할 수 있게 한다.

4. 대규모 학습의 안정화: 정규화와 최적화 기법

수십억 개의 파라미터를 가진 모델을 레이블 없이 학습시키는 과정은 매우 불안정하며, ’모델 붕괴(Model Collapse)’의 위험이 항상 존재한다. DINOv2는 이를 제어하고 특징 표현의 다양성을 극대화하기 위해 KoLeo 정규화와 같은 고급 기법을 도입했다.

4.1 KoLeo 정규화와 미분 엔트로피

KoLeo(Kozachenko-Leonenko) 정규화는 특징 벡터들이 특징 공간(Feature Space) 내에서 균일하게 분포(Uniform Distribution)하도록 강제하는 기법이다.5 이는 미분 엔트로피(Differential Entropy)의 추정치를 최대화하는 것과 수학적으로 동등하다.

만약 모델이 모든 이미지에 대해 비슷한 특징 벡터를 출력한다면(붕괴 발생), 특징 벡터 간의 거리가 가까워지고 엔트로피는 낮아진다. 반대로 벡터들이 초구(Hypersphere) 상에 고르게 퍼져 있다면, 엔트로피는 최대화되며 모델은 입력 이미지 간의 미세한 차이를 잘 구별할 수 있게 된다. DINOv2는 배치(Batch) 내 샘플들 간의 거리를 기반으로 KoLeo 정규화를 적용(가중치 0.1)하여, 학습된 특징들이 높은 식별력(Discriminative power)을 갖도록 유도한다.8 이는 특히 k-NN 분류나 이미지 검색과 같은 작업에서 성능 향상에 결정적인 역할을 한다.

4.2 Sinkhorn-Knopp 센터링

교사 네트워크의 출력 분포를 조절하기 위해 Sinkhorn-Knopp 알고리즘이 사용된다. 이는 출력 벡터를 배치 차원과 클래스 차원에서 반복적으로 정규화하여 이중 확률 행렬(Doubly Stochastic Matrix)에 근사시키는 방법이다.8 이를 통해 배치의 샘플들이 프로토타입(Prototype)들에 고르게 할당되도록 하여, 특정 프로토타입만이 과도하게 사용되는 쏠림 현상을 방지한다.

4.3 효율적인 고해상도 학습: 커리큘럼 전략

고해상도 이미지는 세그멘테이션과 같은 픽셀 단위 작업에 필수적이지만, 학습 비용을 기하급수적으로 증가시킨다. DINOv2는 전체 학습 과정의 90% 이상을 낮은 해상도(예: 224x224)에서 수행하고, 마지막 짧은 기간(약 10% 미만) 동안만 해상도를 518x518로 높여 미세 조정하는 전략을 취했다.8

이때 위치 임베딩(Position Embedding)은 고해상도에 맞게 보간(Interpolate)되어 적용된다. 연구 결과, 이 방식은 처음부터 고해상도로 학습한 모델과 비교하여 성능 차이는 거의 없으면서도 학습 시간과 메모리 사용량을 획기적으로 절감시켰다.13 이는 저해상도에서 이미지의 전반적인 구조(Structure)를 먼저 학습하고, 고해상도 단계에서 세부적인 텍스처와 경계(Details)를 정교화하는 커리큘럼 학습(Curriculum Learning)의 효과로 해석될 수 있다.

아래 표는 DINOv2의 학습 전략을 기존 방법론들과 비교 요약한 것이다.

구성 요소MAE (Reconstruction)DINO (Distillation)DINOv2 (Hybrid)
핵심 손실 함수픽셀 재구성 (MSE)이미지 수준 지식 증류 (CE)이미지 수준 증류 + 패치 수준 MIM
입력 뷰단일 뷰 + 마스킹전역/로컬 크롭 (Multi-crop)전역/로컬 크롭 + 마스킹
헤드 구성디코더 (Decoder)공유 투영 헤드분리된(Untied) 투영 헤드
특징 속성국소적 특징 우수, 의미론적 분리 약함의미론적 분리 우수, 국소적 정보 부족전역/국소 특징 모두 우수
주요 정규화마스킹 비율 조절센터링, 샤프닝KoLeo 정규화, Sinkhorn-Knopp

5. 창발적 속성(Emergent Properties): PCA를 통한 시각적 해석

DINOv2가 학습한 특징 공간을 분석해보면, 모델이 명시적인 지도(Supervision) 없이도 이미지의 의미론적 구조를 깊이 이해하고 있음을 알 수 있다. 이러한 ’창발적 속성’은 주성분 분석(PCA)을 통해 가장 직관적으로 확인할 수 있다.8

5.1 객체-배경 분리와 의미론적 대응

DINOv2의 패치 토큰들로부터 추출한 특징 벡터에 PCA를 적용하고, 첫 3개의 주성분을 RGB 채널에 매핑하여 시각화하면 놀라운 결과를 관찰할 수 있다 (원문 논문의 Figure 1 참조).

  1. 배경 제거의 자동화: 첫 번째 주성분(PCA 1)은 거의 예외 없이 이미지의 전경 객체(Object)와 배경(Background)을 구분하는 정보를 담고 있다. 이 성분에 대해 간단한 임계값(Thresholding)을 적용하는 것만으로도, 별도의 세그멘테이션 모델 없이 정교한 배경 제거가 가능하다.8 이는 DINOv2가 ’물체성(Objectness)’이라는 개념을 내재적으로 학습했음을 의미한다.
  2. 부위 간 의미론적 매칭 (Semantic Part Correspondence): 서로 다른 종류의 객체(예: 개와 고양이, 비행기와 새)라 할지라도, 의미론적으로 대응되는 부위는 동일한 색상(주성분 패턴)으로 표현된다.15 예를 들어, 비행기의 날개와 새의 날개는 같은 색상으로, 네 발 짐승의 머리 부분은 모두 붉은색 계열로 나타나는 식이다. 이는 모델이 픽셀의 단순한 색상이나 모양을 넘어, ‘날개’, ‘머리’, ’다리’와 같은 추상적인 부위(Part) 개념을 형성했음을 시사한다.
  3. 강건성 (Robustness): 이러한 속성은 객체가 가려지거나(Occlusion), 흐릿하거나(Blur), 비정형적인 자세를 취하고 있어도 유지된다.17

5.2 도메인 특화 창발성: 지질학 및 의학

이러한 창발적 속성은 자연 이미지를 넘어 전문적인 도메인에서도 유효하다. 지질학 분야의 암석 이미지 분석에서 DINOv2의 PCA 첫 번째 성분은 암석의 공극(Pore) 크기를, 두 번째 성분은 공극의 밀도(Density)를 나타내는 것으로 분석되었다.19 또한 흉부 X-ray, CT, MRI와 같은 의료 영상에서도 장기(Organ)나 병변의 구조적 특징을 PCA 성분들이 잘 분리해내는 것이 확인되었다.16 이는 DINOv2가 학습한 시각적 문법이 도메인을 초월하여 보편적으로 적용될 수 있음을 증명한다.

6. 성능 평가 및 하위 작업 응용

DINOv2의 진정한 가치는 학습된 파라미터를 고정(Frozen)한 상태로 다양한 하위 작업에 적용했을 때 드러난다.

6.1 선형 분류(Linear Probing)와 k-NN

ImageNet-1k 데이터셋에 대해 DINOv2의 특징 위에 선형 분류기(Linear Classifier) 하나만을 학습시켰을 때, ViT-g 모델은 86.5%의 Top-1 정확도를 기록했다.1 이는 마스크드 오토인코더(MAE)가 선형 분류에서 67% 수준의 성능을 보이는 것과 대조적이며, 약한 지도 학습(Weakly-supervised) 모델인 CLIP의 성능을 상회하는 결과이다.1 또한 k-NN 분류에서도 높은 성능을 보이는데, 이는 특징 공간의 위상(Topology)이 클래스별로 잘 정렬되어 있음을 의미한다.

6.2 밀집 예측 작업 (Dense Prediction Tasks)

세그멘테이션이나 깊이 추정과 같은 픽셀 단위 작업에서도 DINOv2는 압도적이다. iBOT 손실을 통해 패치 수준의 정보를 보존했기 때문에, 마스크 R-CNN이나 U-Net과 같은 복잡한 디코더 없이 선형 디코더(Linear Decoder)만으로도 최첨단(SOTA) 모델들에 필적하는 성능을 낸다.3 특히 비디오 세그멘테이션이나 깊이 추정에서 시간적 일관성과 공간적 정밀함을 모두 보여주며, 이는 DINOv2가 3D 구조에 대한 이해도 어느 정도 갖추고 있음을 암시한다.

7. 결론: 파운데이션 모델로서의 DINOv2

DINOv2는 비전 트랜스포머의 자기지도 학습이 도달할 수 있는 새로운 지평을 열었다. LVD-142M이라는 정제된 대규모 데이터셋, DINO와 iBOT 손실의 정교한 결합, 그리고 KoLeo 정규화와 효율적인 고해상도 학습 전략은 DINOv2를 단순한 특징 추출기를 넘어선 진정한 의미의 ’비전 파운데이션 모델’로 격상시켰다.

이 모델은 2025년 현재, 텍스트와 이미지를 연결하는 멀티모달 에이전트의 시각 인코더(Encoder)로서 표준적인 위치를 차지하고 있다. 언어 모델(LLM)이 텍스트를 이해하듯, DINOv2는 이미지를 이해하고 구조화하여 AI 시스템에 전달한다. 레이블이라는 제약에서 벗어나 데이터 그 자체로부터 시각적 세상의 원리를 깨우친 DINOv2의 방법론은, 향후 비디오, 3D, 그리고 더 복잡한 감각 정보를 통합하는 차세대 트랜스포머 모델들의 핵심적인 설계 원칙으로 작용할 것이다.

8. 참고 자료

  1. Understanding DINOv2: Engineer’s Deep Dive - Lightly AI, https://www.lightly.ai/blog/dinov2
  2. Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks - arXiv, https://arxiv.org/html/2312.02366v3
  3. [2304.07193] DINOv2: Learning Robust Visual Features without Supervision - arXiv, https://arxiv.org/abs/2304.07193
  4. DINOv2: Self-supervised Learning Model Explained - Encord, https://encord.com/blog/dinov2-self-supervised-learning-explained/
  5. DINOv2: Learning Robust Visual Features without Supervision - arXiv, https://arxiv.org/html/2304.07193v2
  6. Paper Review: DINOv2: Learning Robust Visual Features without Supervision, https://andlukyane.com/blog/paper-review-dinov2
  7. DINOv2 - Steps by steps explanations - Picsellia, https://www.picsellia.com/post/dinov2-steps-by-steps-explanations-picsellia
  8. DINOv2: Learning Robust Visual Features without Supervision - arXiv, https://arxiv.org/pdf/2304.07193
  9. Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT - arXiv, https://arxiv.org/html/2407.18288v2
  10. DINOv2: Explained - Erik Storrs, https://storrs.io/dinov2-explained/
  11. DINO-V2: Learning Robust Visual Features without Supervision — Model Explained, https://www.ai-bites.net/dino-v2-learning-robust-visual-features-without-supervision-model-explained/
  12. Autonomous Detection of Concrete Cracks Using Self-Supervised DinoV2, https://www.mi-research.net/article/id/d09c38da-cd09-485f-8fd8-b95491d7d4b1
  13. Enhancing diagnostic deep learning via self-supervised pretraining on large-scale, unlabeled non-medical images - PubMed Central, https://pmc.ncbi.nlm.nih.gov/articles/PMC10850044/
  14. How far can we go without manual annotation? A survey of unsupervised object localization methods - arXiv, https://arxiv.org/html/2310.12904v3
  15. DINOv2 PCA visualization code - Junuk Cha, https://junukcha.github.io/code/2023/12/31/dinov2-pca-visualization/
  16. Evaluating General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks - arXiv, https://arxiv.org/html/2312.02366v4
  17. Multi-task Image Restoration Guided by Robust DINO Features - arXiv, https://arxiv.org/html/2312.01677v3
  18. A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence | OpenReview, https://openreview.net/forum?id=lds9D17HRd
  19. DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability, https://arxiv.org/html/2407.18100v3
  20. (PDF) DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability - ResearchGate, https://www.researchgate.net/publication/382560010_DINOv2_Rocks_Geological_Image_Analysis_Classification_Segmentation_and_Interpretability
  21. DINOv2 Rocks Geological Image Analysis: Classification, Segmentation, and Interpretability, https://arxiv.org/html/2407.18100v1
  22. Improving 2D Feature Representations by 3D-Aware Fine-Tuning - European Computer Vision Association, https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00176.pdf